国产精品日韩欧美一区二区-狠狠躁夜夜躁人人爽天天天天97-一级一片免费观看-偷拍亚洲综合20p-日韩视频在线播放-久久久女人与动物群交毛片-亚洲熟妇av综合网-91视频久久久-欧美亚洲在线视频-国产乱淫av片杨贵妃-二区国产-日韩久久不卡-91av色-美女扒开腿让男人桶爽久久软件-毛片在线视频播放-97se狠狠狠狼鲁亚洲综合网-国产女高清在线看免费观看-国产绿帽口舌视频vk-精品一区久久久-av黄色在线

聯(lián)
咨詢熱線:

17661095540

聯(lián)系QQ:

2863379292

官方微信:

網(wǎng)頁(yè)抓取優(yōu)先策略

全網(wǎng)營(yíng)銷

導(dǎo)讀:網(wǎng)頁(yè)抓取優(yōu)先策略也稱為“頁(yè)面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁(yè),這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁(yè)。那么哪些網(wǎng)頁(yè)才

發(fā)表日期:2019-12-23

文章編輯:興田科技

瀏覽次數(shù):9544

標(biāo)簽:

網(wǎng)頁(yè)抓取優(yōu)先策略也稱為“頁(yè)面選擇問題”(page Selection),通常是盡可能地首先抓取重要性的網(wǎng)頁(yè),這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁(yè)。那么哪些網(wǎng)頁(yè)才是重要性高的呢?如何量化重要性呢?

重要性度量由鏈接歡迎度、鏈接重要度和平均鏈接深度這個(gè)方面決定。

定義鏈接歡迎度為IB(p),它主要由反向鏈接(Backinks)的數(shù)目和質(zhì)量決定。首先考察數(shù)目,直觀地講,一個(gè)網(wǎng)頁(yè)有越多的鏈接指向它(反向鏈接數(shù)多),那么表示其他網(wǎng)頁(yè)對(duì)其的認(rèn)可。同時(shí)這個(gè)網(wǎng)頁(yè)被網(wǎng)民訪問的機(jī)會(huì)就大,推測(cè)出其重要性也就越高;其次考察質(zhì)量,如果被越多的重要性高的網(wǎng)指向,那么其重要性也就越高。如果不考慮質(zhì)量,就會(huì)出現(xiàn)局部最優(yōu),而不是全局最優(yōu)的問題。最典型的就是作弊網(wǎng)頁(yè),人為地在一些網(wǎng)頁(yè)中設(shè)置了大量反策鏈接指向其自身的網(wǎng)頁(yè),以提高該網(wǎng)頁(yè)的重要性。如果不考慮鏈接質(zhì)量,就會(huì)被這些作弊者所利用。

定義鏈接重要度為IL(p),它是一個(gè)關(guān)于URL字符串的函數(shù),僅僅考察字符串本身。鏈接重要度主要通過一些模式,比如認(rèn)為包含“.COM”或者“HOME”的URL重要度高,以及具有較少斜杠(Slash)的URL重要度高等。

定義平均鏈接深度為ID(p),此為筆者所創(chuàng)。ID(p)表示在一個(gè)種子站點(diǎn)集合中,每個(gè)種子站點(diǎn)如果存在一條鏈路(寬度優(yōu)先遍歷規(guī)則)到達(dá)該網(wǎng)頁(yè),那么平均鏈接深度就是這個(gè)網(wǎng)頁(yè)的又一個(gè)重要性指標(biāo)。因?yàn)榫嚯x種子站點(diǎn)越近,說明被訪問的機(jī)會(huì)越多,離種子站點(diǎn)越遠(yuǎn),重要性越低。事實(shí)上,按照寬度優(yōu)先的遍歷規(guī)則即可滿足這種重要性高的網(wǎng)頁(yè)被優(yōu)先抓取的需要。

最后,定義網(wǎng)頁(yè)重要性的度量為I(p),它由以上兩個(gè)量化值線性決定,即:

I(p)=a*IB(p)+β*IL(p)

平均鏈接深度同寬度優(yōu)先的遍歷規(guī)則保證,因此不作為重要性評(píng)價(jià)的指標(biāo)。在抓取能力有限的情況下,如果能夠把重要性高的網(wǎng)頁(yè)盡可能地抓完,是合理科學(xué)的,最終被用戶查詢到的網(wǎng)頁(yè)也往往是那些重要性高的網(wǎng)頁(yè)。

盡管這樣看來已經(jīng)足夠完美,事實(shí)上,還是忽視了一個(gè)重要的要素--時(shí)間。時(shí)間導(dǎo)致萬維網(wǎng)動(dòng)態(tài)變化的一面。如何抓取那些新增的網(wǎng)頁(yè)呢?如何重訪那些被修改了的網(wǎng)頁(yè)呢?如何發(fā)現(xiàn)那些被刪除了的網(wǎng)頁(yè)呢?為了保持和萬維網(wǎng)網(wǎng)頁(yè)的同步變化,就必須有網(wǎng)頁(yè)重訪策略。通過該策略可以識(shí)別增加、修改及刪除網(wǎng)頁(yè)這3種網(wǎng)頁(yè)變化的情況。

相關(guān)推薦

更多新聞

  • 3-13

    2019

    全網(wǎng)營(yíng)銷 / 2019-03-13

    我的音樂網(wǎng)站推廣經(jīng)驗(yàn)談

    現(xiàn)在隨處都是音樂網(wǎng)站。那對(duì)于音樂站該怎么去推廣呢?這個(gè)問題我考慮了很久。而且是個(gè)DJ站!現(xiàn)在我來說說我的DJ站推廣方法。qq群網(wǎng)站推廣法。用幾十個(gè)qq,每個(gè)qq加入幾十個(gè)群,前

    View details

  • 8-3

    2023

    全網(wǎng)營(yíng)銷 / 2023-08-03

    山東軟件開發(fā):利用科技驅(qū)動(dòng)創(chuàng)新的力量

    隨著信息技術(shù)的快速發(fā)展,軟件開發(fā)在現(xiàn)代社會(huì)中扮演著重要的角色。山東軟件開發(fā)行業(yè)作為中國(guó)軟件開發(fā)行業(yè)的重要組成部分,正不斷發(fā)展壯大。本文將探討山東軟件開發(fā)行業(yè)的現(xiàn)狀、發(fā)展前景以及為什么山東是一個(gè)理想的軟件開發(fā)中心。

    View details

  • 8-11

    2023

    全網(wǎng)營(yíng)銷 / 2023-08-11

    醫(yī)療網(wǎng)站建設(shè)與規(guī)劃總結(jié)

    醫(yī)療網(wǎng)站建設(shè)的重要性隨著互聯(lián)網(wǎng)的迅速發(fā)展,醫(yī)療領(lǐng)域也越來越重視建設(shè)自己的網(wǎng)站。。醫(yī)療網(wǎng)站的建設(shè)不僅可...

    View details

  • 8-24

    2023

    全網(wǎng)營(yíng)銷 / 2023-08-24

    伊川網(wǎng)站建設(shè)- 為您提供卓越的網(wǎng)絡(luò)建設(shè)服務(wù)

    伊川網(wǎng)站建設(shè)對(duì)于企業(yè)和個(gè)人來說是至關(guān)重要的。通過選擇合適的伊川網(wǎng)站建設(shè)服務(wù),您可以擁有一個(gè)具有吸引力、易用性和功能性的網(wǎng)站,以提高品牌形象、市場(chǎng)競(jìng)爭(zhēng)力和銷售機(jī)會(huì)。通過了解伊川網(wǎng)站建設(shè)的步驟和常見問題,您可以更好地理解并做出明智的選擇。立即行動(dòng),建設(shè)您的伊川網(wǎng)站,開啟在線之旅吧!

    View details